﻿ ESTIMAREA NEDEPLASATĂ, CU DISPERSIE MINIMĂ, GENERALIZATĂ Într-o problemă de estimare a unui parametru necunoscut, θ, dispunem de cele N eșantioane de date {x , x , …, x[N-1]} Fiecare dintre acestea poartă informație despre parametrul necunoscut Ne punem întrebarea dacă nu putem găsi un singur număr,T,care depinde de date și poartă toată informația despre θ 0 , 1 , , 1Tx x xN T−=x () [][][] () Ca și datele, T(x) este o variabilă aleatoare, numită “statistică” Vom considera modelul de semnal 2 xn A wn n Nσ=+ = −wI∼N ; 0,1, , 1; 0, [] [] () u Am arătat că media eșantion este un estimator MVU eficient Pentru componenta continuă, A 1N− 1 ˆ Axxn== [] ∑ 0nN= Pentru a estima A nu trebuie să cunoaștem toate valorile x[n] Ne putem mărgini la cunoașterea unei singure valori, statistica T(x) 1N− Txn=x () [] ∑ 10n= Ea se numeșteși“statistică suficientă” Dacă pentru două seturi diferite de date xx 12≠ dar pentru care valorile statisticii T(x) sunt identice, adică xx ()() 12TT= atunci valorile estimatului pentru θ determinate din cele două seturi de date sunt identice Ne putem pune întrebarea firească “câte statistici suficiente există ?” Dacă ne referim tot la exemplul în care se estimează componenta continuă, A, cele N date măsurate sunt suficiente pentru măsurare (de altele nici nu dispunem) Prin urmare, mulțimea 0 , 1 , , 1Sxx xN=− [][][] {} 1 constituie o statistică suficientă În oricare situație, datele măsurate formează o statistică suficientă Dar, în mod evident, o statistică suficientă o constituie șimulțimea 0 1 , 2 3 , Sx xx x=+ + [][][][] {} 2 La început am văzut că mulțimea cu un singur element 1N− ⎧⎫ [] ⎨⎬ ∑ 3Sxn= 0n= ⎩⎭ i ea o statistică suficientă dar pe care o vom numi și “minimală” deoarece ș2este are numărul minim de elemente între statisticile suficiente posibile 1 Pentru exemplul luat în considerare, avem 1N− ⎫ 211⎧ ;exppA xnA=− − x () [] () ⎬ ∑ 2N⎨ 02nσ = ⎩⎭ 2πσ () Dacă datele x măsurate determină o valoare fixă pentru statistica suficientă 1N− TxnT==x () [] 0∑ 0n= atunci densitatea de repartiție condiționată de aceasta nu mai poate fi funcție de parametrul necunoscut, A 1N− ⎛⎞ x [] ⎜⎟ ∑ 0;pxn T A= 0n= ⎝⎠ Dacă ar exista dependența de A, din date x diferite, dar care ar da aceeași valoare a statisticii suficiente, am mai putea obține informații privind parametrul necunoscut, A Dar atunci T(x) nu ar fi statistică suficientă! Pentru 1N− ⎛⎞ ; ; fixat, dar arbitrarpxnTA==xx x [] ∑ 3000⎜⎟ 0n= ⎝⎠ se arată în figură independența de valoarea parametrului necunoscut, A, dacă T(x) este o statistică suficientă Dacă există variație funcție de valoarea parametrului necunoscut, A, deși pentru diverse seturi de date se obține aceeași valoare a statisticii T(x), așa cum se vede din figură, 4 atunci nu avem de-a face cu o statistică suficientă! 2 Se pune întrebarea “cum poate fi determinată statistica suficientă (eventual minimală)?” Răspunsul este dat de teorema de factorizare Neyman-Fisher (Noiman-Fișer), al cărui enunț îl dăm fără demonstrație Teorema de factorizare Neyman-Fisher Dacă densitatea de probabilitate a datelor, x, p(x; θ), dependentă de parametrul necunoscut θ, poate fi factorizată sub forma (; ) (), ()pgT hθθ=xxx () în care g( ) este o funcție care depinde de datele x numai prin intermediul statisticii T(x) iar h( ) este o funcție numai de datele x, nu și de statistica T(x) sau de parametrul necunoscut θ, atunci T(x) este o statistică suficientă pentru θ Reciproc, dacă T(x este o statistică suficientă pentru θ, atunci se poate obține factorizarea de mai sus *** 5 Statistica suficientă pentru estimarea unui nivel continuu, în zgomot alb, gaussian Dacă în expresia densității de repartiție corespunzătoare se dezvoltă pătratul de la exponent, putem obține forma cerută de teorema de factorizare 11NN−− ⎧⎫ ⎡⎤ ⎪⎪ 2211 1⎧⎫ − − x () [][] ⎨⎬⎨ ⎬ ∑∑ ⎢⎥ 22;exp2expNpA NA Axn xn=− 00222nnσσ == ⎪⎪ ⎩⎭ ⎣⎦ ⎩⎭ πσ () hx () x ,gT A⎛⎞ ) ( ⎜⎟ ⎝⎠ și deducem că statistica suficientă pentru estimarea componentei continue este 1N− Txn=x () [] ∑ 0n= Statistica suficientă pentru estimarea puterii zgomotului alb, gaussian Pentru zgomotul alb gaussian, cu puterea (dispersia) necunoscută 2 ; 0,1, , 1, 0,xn wn n N wnσ==−∼N [][][] () factorizarea este evidentă dacă scriem densitatea de repartiție sub forma 1N− 2211⎧⎫ =−⋅ x [] () ⎨⎬ ∑ 22;exp1Npxnσ 2 022nσ = ⎩⎭ hπσx () ) ( 6 2⎛⎞ ;gTσx () ⎜⎟ ⎝⎠ 3 și rezultă că statistica suficientă pentru estimarea dispersiei zgomotului este 1N− 2 ()Txn=x [] ∑ 0n= Problema estimării fazei unei sinusoide Pentru modelul de semnal sinusoidal cu faza inițială, Φ, necunoscută, afectată de un zgomot alb, gaussian datele x[n] au forma 2 =+Φ+=−wI∼N [][] () () 0cos 2 ; 0,1, , 1; 0,uxn A fn wn n Nπσ iar densitatea de probabilitate a datelor x are forma 1N− 211⎧ ⎫ ⎡⎤ x Φ= − − +Φ () [] () ⎨⎬ ∑ 02;exp cos2NpxnAfnπ ⎣⎦ 02nσ= ⎩⎭ 2πσ () Dezvoltăm pătratul de la exponent șiobținem 1N− 2 ⎡⎤ −+Φ [] () ∑ 0cos 2xn A fnπ ⎣⎦ 0n= 11 1NN N−− − 222 =− +Φ+ +Φ [] [] () () ∑∑ ∑ 002 cos 2 cos 2xn A xn fn A fnππ 00 0nn n== = 11NN−− 2⎡⎤ =−Φ [] [] ∑∑ ⎢⎥ 02cos cos2xn A xn fnπ 00nn== ⎣⎦ 11NN−− 722⎡⎤ +Φ + +Φ [] () ∑∑ ⎢⎥ 2 sin sin 2 cos 2AxnfnA fnππ00 00nn== ⎣⎦ Cu notațiile 1N− cos 2Txnfnπ=x () [] 10∑ 0n= 1N− sin 2Txnfnπ=x () [] 20∑ 0n= expresia anterioară devine 2 1N− ⎡⎤ cos 2xn A fnπ −+Φ [] () ∑ 0⎣⎦ 0n= 1N− 2 xx 2cos2 sinxn AT AT=− Φ+ Φ () () [] 12∑ 0n= 1N− 22 cos 2Afnπ ++Φ () 0∑ 8 0n= 4 Densitatea de probabilitate a datelor x se poate factoriza acum 1 ;pΦ= () Nx 2πσ () 1N− ⎡⎤ ⎪⎪ 221⎧⎫ xx ⋅− +Φ− Φ⋅ + Φ⋅ () () () ⎨⎬ ∑ ⎢⎥ 0122exp cos 2 2 cos 2 sinAftATATπ 02nσ = ⎪⎪ ⎣⎦ ⎩⎭ xx () () () 12,,gT TΦ 1N− 21⎧⎫ expxn⋅− [] ∑ 2⎨⎬ 02nσ= ⎩⎭ hx () Apar două statistici în loc de una Teorema de factorizare Neyman-Fisher se poate extinde, după cum urmează 9 Extinderea teoremei de factorizare Neyman- Fisher pentru un grup de r statistici suficiente Dacă densitatea de probabilitate a datelor, x, dependentă de parametrul necunoscut θ, p(x; θ) poate fi factorizată sub forma =xxxxx () 12(; ) ), ), , ); ()(( (rpgTTThθθ atunci {} 12), ), , )(( (rTT Txx x formează un grup de r statistici mutual suficiente pentru estimarea parametrului necunoscut, θ Reciproca teoremei este adevărată *** În orice problemă de estimare, deoarece densitatea de repartiție a datelor se poate scrie sub forma ; 0 , 1 , , 1 ;1ppxxxNθθ=−⋅x () [][][] () hx () ⎛⎞ ⎡⎤ ⎡⎤ ⎡ ⎤ 0 , 1 , , 1 ;gx x xNθ− ⎜⎟ ⎢⎥ ⎢⎥ ⎢ ⎥ ⎣⎦ ⎣⎦ ⎣ ⎦ ⎝⎠ rezultă că, la limită, datelepot fi asimilate cu un grup de N statistici mutual suficiente pentru estimarea parametrului necunoscut 10 0 , 1 , , 1xx xN− [][][] {} 5 Determinarea estimatorilor MVU plecând de la o statistică suficientă Dacă am determinat o statistică suficientă, T(x), pentru un parametru necunoscut, θ, se poate găsi un estimator MVU în două feluri, dintre care vom prezenta doar unul: se caută o funcție g( ), atfel încât ˆ =x ()gTθ () să fie un estimator nedeplasat pentru θ, adică ˆ ()EEgTθ θ==x () {} {} Pentru exemplificare reluăm problema estimării componentei continue pentru care statistica suficientă este 1N− Txn=x () [] ∑ 0n= Trebuie găsită funcția g(x) pentru care să avem 1N− ⎧⎫ ⎛⎞ ⎪⎪ Eg xn A= [] ⎨⎬ ∑ ⎜⎟ 11 0n= ⎪⎪ ⎝⎠ ⎩⎭ Funcția g(x) are forma evidentă x gx= () N astfel că estimatorul componentei continue A este, în mod evident 1N− 1 ˆ Axn= [] ∑ 0nN= Dacă funcția g( ) este unică, statistica suficientă T(x) se spune că este “completă” Familia de repartiții exponențial-scalare, ce are forma ;exppx A Bx Cx Dθθθ=++ ()()()()() {} are proprietatea de a genera statistici suficiente complete pentru parametrul necunoscut, θ Repartiția gaussiană cu media μ necunoscută, repartiția Rayleigh cu dispersia necunoscută și repartiția exponențială cu parametrul λ necunoscut, fac toate parte din familia exponențial-scalară 12 6 Repartiția exponențial scalară poate fi factorizată conform teoremei Neyman-Fisher sub forma ;exp exppx A Bx D Cxθθ θ=+ ()()()()() {}{} ⎛⎞ () ,hxgTxθ ⎜⎟ () ⎝⎠ din care rezultă că statistica suficientă pentru parametrul necunoscut θ este Tx Bx= ()() Considerăm că datele T ⎤ x 01 1xx xN⎡ =− [] [] [ ] ⎣⎦ sunt de tip IID, motiv pentru care densitatea de repartiție a vectorului x este 1N− ;;ppxnθθ=x () [] () ∏ 0n= 1N− ⎡⎤ exp expA B xn D C xnθθ =+ ()() [][] ()() {}{} ∏ ⎣⎦ 0n= 11NN−− ⎧⎫⎧⎫ exp expABxn ND Cxnθθ =+ ()() [][] ()() ⎨⎬⎨⎬ ∑∑ 13 00nn== ⎩⎭⎩⎭ Statistica suficientă și completă pentru parametrul necunoscut este, conform teoremei Neyman-Fisher 1N− TBxn=x () [] () ∑ 0n= Prezentăm câteva exemple 1) Pentru o repartiție gaussiană de medie μ necunoscută, densitatea de repartiție este 211⎧ ⎫ ;exppx xμμ =−− ()() ⎬ 2⎨ 22σ πσ ⎩⎭ 22 ⎧⎫⎧⎫ xμμ =−−−− exp ln 2 ln expxπσ ⎨⎬ 22 2⎨⎬ 22σσ σ ⎩⎭⎩⎭ Se observă că Bx x= () și deci statistica suficientă și completă, pentru cazul unui vector de date x este, pentru medie 1N− Txn=x [] 1∑ 14() 0n= 7 2) Pentru o repartiție Rayleigh de dispersie necunoscută, densitatea de repartiție este 2 ⎪⎪ 2xx⎧⎫ =− ;exppx uxσ () () 22⎨⎬ 2σσ ⎪⎪ ⎩⎭ 221⎧⎫ ⎡⎤ =− − exp ln exp lnxxu xσ () {} ⎣⎦ 2⎨⎬ 2σ ⎩⎭ în care u(x) este treapta unitară 1, x>0⎧ ()ux= ⎨ 0, x = -1NNσ Trebuie să menționăm că se putea găsi un vector statistică suficientă șidirect, pornind de la repartiția 1N− ⎫ 211⎧ − x;θ () [] () ⎨⎬ ∑ 2/2expNpxnA=− 22nσ 0= ⎩⎭ 2πσ () Suma de la exponent se dezvoltă după cum urmează 11NN−− 22 −= −+− xn A xn x x A⎡⎤ () [][] ()() ∑∑ ⎣⎦ 00nn== 111NNN−−− 22 2xnx xA xnx xA=− −− −+− ()() [][] ()() ∑∑∑ 000nnn=== 11NN−− 22 2xn x x A Nx Nx x A=− −−−+− ()()() [] () ∑∑ 00nn== 1N− 22 xn x N x A=− +− () [] () ∑ 430n= Substituim această dezvoltare în expresia repariției gaussieneșiobținem factorizarea 1N− ⎡⎤ 2211⎧⎫ ⎪⎪ −+−⋅ x;θ ()() [] () ⎨⎬ ∑ ⎢⎥ 2/2exp 1NpxnxNxA=− 22nσ 0h= ⎪⎪ ⎣⎦ x ⎩⎭ () 2πσ () ',gTx θ () ) ( din care se deduc imediat cele două statistici suficiente, pentru media A și pentru dispersie Vectorul statisticilor suficiente este x⎡ ⎤ ⎢⎥ 1N− x () 2'T= ⎥ xn x⎢ − [] () ∑ ⎢⎥ 0n= ⎣⎦ 44 22